ByteScout PDF Extractor SDK

Скриншот программы:
ByteScout PDF Extractor SDK
Детали программы:
Версия: 9.0.0.3079 обновление
Дата загрузки: 15 Aug 18
Разработчик: ByteScout
Тип распространения: Условно-бесплатная
Цена: 10.00 $
Популярность: 193
Размер: 596 Kb

Rating: 3.3/5 (Total Votes: 4)


        PDF Extractor SDK для разработчиков программного обеспечения Windows: PDF в текст, PDF в XML, изображения из PDF, чтение PDF-данных, PDF в CSV для Excel.

Bytescout PDF Extractor SDK позволяет конвертировать PDF в текст, PDF в XML, PDF в CSV, извлекать изображения из PDF, извлекать информацию о файлах PDF в .NET и ActiveX-интерфейсах без какого-либо дополнительного программного обеспечения.


Выгоды:
 конвертирует PDF в обычный текст (и может следовать столбцам, если вы конвертируете газету в формате PDF) - включая невидимое извлечение текста;
 конвертирует таблицы в PDF в Excel (CSV), читая ячейки из данного прямоугольника;
 конвертирует таблицы в файлы PDF в XML;
 извлекает метаданные файла PDF (название, автор, описание) и получает другую информацию о файле (количество страниц, зашифрованных или нет);
 извлекает встроенные изображения из документа PDF (в ASP.NET, VB.NET, C #, VB6 и VBScript);
 Интерфейсы и классы DocumentMerger и DocumentSplitter для объединения и разделения PDF-документов;
не требует установки Adobe Reader или любого другого программного обеспечения для чтения PDF-файлов;
 предоставляет интерфейсы .NET и ActiveX;
 сделанный с 100% -ным кодом C #.
    

Что нового в этой версии:

Версия 9.0.0.3079: Добавлена ​​фильтрация извлеченного контента по имени шрифта, размеру шрифта и цвету.
Обновлен движок OCR до последней версии. Обновите языковые файлы из папки «tessdata».
Улучшенное извлечение текста, группировка строк в табличных данных, производительность, извлечение форм XFA, TableDetector, исправленные проблемы синтаксиса PDF.

Что нового в версии 8.7.0.2980:

Добавлена ​​фильтрация извлеченного контента по имени шрифта, размеру шрифта и цвету.
Обновлен движок OCR до последней версии. Обновите языковые файлы из папки «tessdata».
Улучшенное извлечение текста, группировка строк в табличных данных, производительность, извлечение форм XFA, TableDetector, исправленные проблемы синтаксиса PDF.

Что нового в версии 8.6.0.2911:

Добавлена ​​фильтрация извлеченного контента по имени шрифта, размеру шрифта и цвету.
Обновлен движок OCR до последней версии. Обновите языковые файлы из папки «tessdata».
Улучшенное извлечение текста, группировка строк в табличных данных, производительность, извлечение форм XFA, TableDetector, исправленные проблемы синтаксиса PDF.

Что нового в версии 8.2.0.2699:

Версия 8.2.0.2699 может включать неопределенные обновления, улучшения или исправления ошибок.

Что нового в версии 8.0.0.2528:

  • Добавлена ​​фильтрация извлеченного контента по имени, размеру шрифта и цвету.
  • Обновлен движок OCR до последней версии. Обновите языковые файлы из папки "tessdata".
  • Улучшено извлечение текста.
  • Улучшена группировка строк в табличных данных.
  • Улучшена производительность.
  • Улучшено извлечение форм XFA.
  • Улучшен TableDetector.
  • Исправлены проблемы с анализом PDF.
  • Исправлено декодирование изображений JBIG.
  • ImageExtractor: исправлено удаление изображения на одной странице.
  • MultimediaExtractor: исправлено извлечение встроенного аудио MPEG.
  • TextExtractor: исправлено неработающее свойство RemoveHyphenation.
  • Другие незначительные улучшения и исправления ошибок.
  • Что нового в версии 7.0.0.2474:

    Версия 7.0.0.2474:

    • добавлен новый класс утилиты DocumentPrinter, позволяющий без труда печатать документы PDF (без каких-либо диалогов пользователей)
    • добавлен новый класс JSONExtractor
    • добавлено переопределение для метода DocumentSplitter.Split (), позволяющего указать выходную папку для сгенерированных файлов
    • исправлена ​​ошибка многопоточности в DocumentSplitter
    • tableDetector теперь учитывает область извлечения, заданную методом SetExtractionArea ()
    • новые свойства в классах экстракции: ExtractionColumns - содержит координаты обнаруженных столбцов; CustomExtractionColumns - позволяет переопределить обнаружение столбцов
    • Методы GetPageRect * не учитывали поворот страницы.
      Исправлена ​​ошибка в установке, вызывающая некоторые файлы из предыдущей установки, мешала обновлениям
    • переработала регистрационную проверку. Теперь библиотека не будет генерировать исключение, но работать в демонстрационном режиме, если вы пропустили или внесли неправильное имя RegistrationName и RegistrationKey
    • PDF Multitool: добавлен недавний список документов в кнопку «Открыть документ PDF»
    • PDF Multitool: теперь можно изменить размер
    • PDF Multitool: добавлена ​​функция Extract JSON
    • PDF Multitool: улучшенный пользовательский интерфейс для определения таблиц
    • PDF Multitool: значительно улучшено качество визуализации
    • PDF Multitool: добавлена ​​опция отладки «Показывать обнаруженные столбцы извлечения» в контекстное меню, чтобы отображать обнаруженные столбцы на текущей странице. Становится видимым только после запуска любого извлечения против текущей отображаемой страницы
    • PDF Multitool: проблема исправления шрифтов в 32-битной Windows
    • другие незначительные улучшения и исправления ошибок.

    Что нового в <6>

    • Добавлен класс утилиты TextComparer (доступен только в сборках .NET 4.0), позволяющий сравнивать текст в двух документах PDF и генерировать отчет.
    • Улучшена поддержка цветовых профилей ICC.
    • Явная обработка встроенных шрифтов.
    • Улучшен AttachmentExtractor.
    • Исправлен метод XMLExtractor.SaveXMLToStream ().
    • Исправлено извлечение дублированного текста при использовании параметра OCRCacheMode.WholePage.
    • Другие исправления ошибок и улучшения.

    Что нового в версии 6.20.2354:

    Версия 6.20.2354:

    • PDF To Text, PDF To CSV, PDF Для улучшения функций XML
    • Новые примеры извлечения, извлечения аудиофайлов
    • Извлекители CSV и XML улучшили поддержку таблиц с пустыми столбцами внутри
    • новый MultimediaExtractor для извлечения видео и аудио из PDF
    • новое свойство PageDataCaching
    • новый пример «MemoryCareProcessingOfHugeFiles»
    • Исправлено исключение null при попытке удалить уже расположенные страницы
    • XLSExtractor: улучшает поддержку шрифтов.
    • SkipInvisibleText теперь пропускает сжатый текст (который не отображается)
    • улучшение вывода текста
    • XFDF Extractor: добавлена ​​поддержка флажков
    • Улучшен вывод изображений для поддержки дополнительных подформатов
    • Улучшена обработка текста в Юникоде

    Что нового в версии 6.11.2149:

    Версия 6.11.2149:

    • Образцы пакетной обработки обновлены, чтобы показать использование метода Reset ()
    • Исходный код C ++, добавленный для извлечения страниц
    • DocumentMerger добавляет метод Merge2 (inputfile1, inputfile2, outputfile) для объединения двух файлов
    • Исправлены ошибки XLS Extractor
    • PDF Multitool теперь позволяет включать / отключать текстовые, графические, векторные слои, добавлять дополнительные параметры для извлечения текста
    • XML, CSV, извлечение таблицы улучшает поддержку таблиц с ячейками emtpry внутри столбцов
    • . Улучшено свойство ExtractShadowLikeText: лучшая фильтрация для теневого текста

    Что нового в версии 6.10.2136:

    Версия 6.10.2136:

    • PDF to XML, PDF to CSV, улучшена функциональность PDF To Text
    • PDF В образец командной строки XLS добавлен (на основе vbscript)
    • PDF В HTML SDK добавлено новое свойство .DetectHyperLinks (по умолчанию TRUE), чтобы включить / отключить автоматическое обнаружение ссылок в тексте
    • новый SearchablePDFMaker (доступный для лицензий PRO) для преобразования PDF в файлы PDF с возможностью поиска
    • новые свойства в экстракторе: рассмотритеFontNames, рассмотритеFontSizes, рассмотритеFontColors, рассмотритеVerticalBorders в файлах CFG
    • обнаружение заголовков столбцов (когда AutoAlighHeaderToColumns = true) улучшено
    • .DetectLinesInsteadOfParagraphs заменены новым .LineGroupingMode, чтобы контролировать, как строки объединяются в параграфы
    • ВАЖНО! PDF To XML исправляет проблему с большим временем с неправильной координатой Y для текстовых объектов (указывал на нижний левый, а не на верхний левый)
    • . Добавлены свойства TableXMinIntersectionRequiredInPercents и .TableYMinIntersectionRequiredInPercents.
    • Добавлен образец исходного кода на C ++
    • XML Extractor исправляет отсутствие пустых столбцов в режиме PreserveFormatting = true
    • незначительные исправления в цветах в некоторых файлах PDF
    • добавлена ​​поддержка нескольких языков OCR
    • PDF Multitool GUI: добавляет кнопку Copy to Clipboard в диалоговые окна TXT, CSV, XML и растрового рендеринга
    • XLSExtractor: добавляет свойство PageToWorksheet для включения / выключения генерации отдельных листов на страницу
    • новое свойство .TextEncodingCodePage
    • PDFViewerControl: добавляет ValidateContextMenu, позволяя пользователю добавлять пользовательские элементы в контекстное меню
    • Управление просмотром PDF: добавляет свойства ShowTextObjects, ShowImageObjects, ShowVectorObjects
    • XMLExtractor теперь добавляет атрибут «OCRConfidence» для распознанного текста
    • Функция проверки PDF / A (в бета-версии)
    • улучшение контроля и проверки текста и выравнивания в соответствии с исходной компоновкой. Проблема была вызвана сдвигом координат Y в элементах управления при разборе: это было неверно. Правильный способ - shif ...
    • Обновлен XML Extractor: теперь создается тег CONTROL для флажков и текстовых полей
    • изменилось использование текущего каталога в каталог temp
    • флаги, радиобокс, editboxes, comboboxes лучше поддерживаются
    • теперь позволяет частичным доверенным абонентам

    Что нового в версии 5.80.1781:

    Версия 5.80.1781:

    • PDF to XML, PDF to CSV, обновленная функциональность PDF to Text
    • OCRMode теперь предоставляет 9 режимов
    • .DetectLineInsteadOfParagraph теперь работает намного лучше. Установите False для захвата многострочного текста в ячейках таблицы!
    • Поддержка элементов управления PDF улучшена
    • Удаление данных FDF и XFDF

    Что нового в версии 5.10.1747:

    Версия 5.10.1747:

    • PDF to XML, PDF to CSV, улучшены функции PDF до Text
    • теперь поддерживает извлечение текста из текстовых элементов управления
    • XML-экстрактор теперь добавляет стиль шрифта, размер, имя, текстовые координаты в теги
    • Добавлен пример ASP.NET для использования OCR
    • новое свойство OCRLanguageDataFolder для указания местоположения папки "tessdata"
    • улучшена поддержка файлов PDF
    • улучшает поддержку поворота текста
    • обновленные примеры исходного кода
    • обновленная документация
    • незначительные улучшения и исправления

    Что нового в версии 5.00.1626:

    Версия 5.00.1626:

    • Добавлена ​​функциональность OCR (текст из изображений): теперь вы можете извлекать текст из встроенных изображений и восстанавливать поврежденный текст
    • проблема исправлена ​​с помощью CSV и XML-экстрактора, отсутствующих в последних столбцах с некоторыми настройками
    • улучшена поддержка поврежденных файлов PDF
    • теперь поддерживается многострочный текстовый поиск со способами сопоставления слов
    • теперь можно искать текст с дефисами и на разных строках: см. образец нового исходного кода. Поиск текста с помощью дефиса
    • новое свойство .RTLTextAutoDetectionEnabled (false по умолчанию) для автоматического определения языков RTL
    • Улучшен просмотр графического интерфейса PDF Viewer
    • незначительные улучшения и исправления

    Требования :

    .NET Framework 2.0 или выше

    Ограничения strong>:

    Экран Nag, водяной знак на выходе

    Поддерживаемые операционные системы

    Похожие программы

    Другие программы разработчика ByteScout

    Комментарии к ByteScout PDF Extractor SDK

    Комментарии не найдены
    добавить комментарий
    Включите картинки!